확률과 통계: 불확실성의 과학: 통계적 추론에서 최적성 정의하기

통계 데이터의 광대한 사막 속에서 우리는 진실—진짜 매개변수 $\psi(\theta)$를 찾는 사냥꾼입니다. 하지만 어떤 화살(추정량)이 가장 좋은지 어떻게 결정할까요? 최적성 최적성은 모호한 감각이 아니라, 손실을 최소화하는 수학적 예술입니다. '가장 좋다'고 할 수 있는 추정량을 찾기 위해 우리는 평균 제곱 오차(MSE)에 주목합니다. 이는 두 가지 근본적인 힘 사이의 긴장감으로 아름답게 분해됩니다: 분산 그리고 편향.

황금 기준 정의: MSE

우리의 추정값 $T$가 진실 $\psi(\theta)$로부터 얼마나 멀어졌는지를 측정하기 위해 우리는 평균 제곱 오차 (정의 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

이는 추정량과 목표 사이의 평균 제곱 거리입니다. 완벽한 추정량은 MSE가 0이 되겠지만, 무작위 소음이 존재하는 세상에서는 이를 최소화하려 노력합니다.

정리 8.1.1: 오차의 구조

왜 추정량이 실패할까요? 정리 8.1.1은 그 청사진을 제공합니다. 만약 $T$가 유한한 두 번째 차원을 가진다면, 임의의 상수 $c$에 대한 오차는 다음과 같습니다:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

이 공식은 전체 제곱 오차가 최소화되는 조건을 드러냅니다 오직 우리가 $c = E(T)$를 선택할 때에만 가능합니다. 추론 맥락에서 우리는 $c = \psi(\theta)$로 설정하여 유명한 분해식을 얻습니다:

MSE = 분산 + 편향$^2$

정밀도-정확도의 트레이드오프

품질 관리 실험실에 두 개의 저울이 있다고 상상해 보세요:

정밀한 고대유물: 항상 같은 무게를 보여줍니다(낮은 분산), 하지만 2그램만큼 잘못 캘리브레이션되어 있습니다(높은 편향).
불안정한 현명한 스승: 평균적으로는 정확하지만, 측정 사이에서 매우 크게 변동합니다(높은 분산).

정리 8.1.1을 통해 어느 저울이 더 낮은 총 오차를 제공하는지 정확히 계산할 수 있습니다. 종종 우리는 분산을 크게 줄이면 시스템적 편향(편향)을 약간 받아들이는 데 동의합니다.

예제 8.1.1: 충분성과 정보

최적성은 정보. 표본 공간 $S = \{1, 2, 3, 4\}$를 생각해 보세요. 가능한 모든 매개변수 하에서 결과 2, 3, 4가 동일하게 확률을 가진다면, 이들은 같은 가능성. 우리는 이러한 결과들을 하나로 묶어도 최적의 추론 능력을 잃지 않는 충분 통계량 $U$를 정의할 수 있습니다. 시뮬레이션에서 보여주듯이, $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$라면, 최적의 추정량은 이들을 단일한 정보성 사건으로 취급합니다.

🎯 핵심 원칙

추정량이 기대 손실을 최소화할 때 최적이 됩니다. 제곱 오차 손실의 경우, 이는 분산과 편향²의 합이 절대 최소가 되는 지점을 찾는 것을 의미합니다.

질문 1

$(x₁, ..., xₙ)$가 평균이 알 수 없고 분산이 알려진 $N(\mu, \sigma₀²)$ 분포에서 추출된 표본이라고 가정합니다. 두 번째 모멘트인 $\mu² + \sigma₀²$에 대한 UMVU 추정량을 결정하세요.

T = x̄² + σ₀²(1 - 1/n)

T = x̄² + σ₀²

T = x̄² - σ₀²/n

T = Σxᵢ² / n

질문 2

정리 8.1.1에 따르면, $E((T - c)^2)$를 최소화하는 'c'의 값은 무엇입니까?

c = ψ(θ)

$c = E(T)$

$c = Var(T)$

$c = 0$

질문 3

평균 제곱 오차 맥락에서 $Bias(T)$는 어떻게 정의됩니까?

E(T) - ψ(θ)

$Var(T) - E(T)$

ψ(θ) / E(T)

E(T²) - [E(T)]²

질문 4

예제 8.1.1에서 $U(2)=U(3)=U(4)=1$일 때 $U(s)$가 충분 통계량인 이유는 무엇입니까?

모든 $\theta$에 대해 $L(\theta|2)$, $L(\theta|3)$, $L(\theta|4)$가 동일하기 때문입니다.

확률의 합이 1이기 때문입니다.

s=1이 가장 높은 확률을 가졌기 때문입니다.

표본 공간이 유한하기 때문입니다.

질문 5

추정량이 비편향일 경우, 그 MSE는 다음과 같습니다:

그 분산

그 편향의 제곱

영

진짜 매개변수 값